Inteligentniejsze scenariusze, bardziej naturalne głosy: aktualizacje platformy w tym miesiącu

Darija Fjodorova

21/05/2026

Platformy głosowe szybko zmierzają w stronę bardziej elastycznej kontroli, tańszej infrastruktury i scenariuszy o niższej latencji. Dwa obszary, które otrzymały w tym miesiącu największe aktualizacje, to dostawcy syntezy mowy oraz edytor scenariuszy.

Naturalnie brzmiące głosy za ułamek kosztu

Dodaliśmy wsparcie dla nowych modeli text-to-speech Gemini, zwiększając liczbę dostawców głosów do sześciu, z ponad 25 modelami i ponad 200 głosami do wyboru.

Te modele brzmią bardziej naturalnie i kosztują mniej niż dotychczasowe opcje premium na rynku. Generują wysokiej jakości głos przy koszcie od czterech do pięciu razy mniej niż alternatywy premium.

Wybór modelu: Klienci mogą teraz wybierać spośród wielu modeli głosowych w zależności od potrzeb. Flash-Lite jest najszybszy i sprawdza się przy krótkich frazach. Flash to zrównoważony model średniej klasy z mocnym przekazem emocjonalnym, odpowiedni do szerszych zastosowań konwersacyjnych. Pro to najbardziej zaawansowana opcja, oferująca jakość premium i głębsze możliwości konwersacyjne. Wszystkie trzy modele obsługują prompty w stylu LLM, dzięki czemu klienci mogą kształtować sposób wypowiedzi bezpośrednio za pomocą promptów, bez osobnej konfiguracji głosu czy dodatkowych ustawień.

Dynamiczna kontrola tonu: Ten sam Voice Agent może teraz zmieniać rejestr w zależności od przypadku użycia - "empatyczny" przy obsłudze reklamacji i "formalny" przy przypomnieniu o odnowieniu umowy - ustawiany bezpośrednio za pomocą promptów, bez osobnej konfiguracji głosu. Obecnie dostępna w modelach Gemini.

Realistyczne audio: Głosy zawierają naturalne wzorce oddechu i tempa, bliższe ludzkiej mowie niż syntetycznemu odtwarzaniu.

„Przetestowaliśmy każdy znaczący model TTS na rynku. Do tego roku wysokiej jakości głosy zbliżone do ludzkich były drogie. Gemini dorównuje dostawcom premium pod względem jakości, ale kosztuje cztero do pięciokrotnie mniej."
- Ilya Ostrovskiy, Chief Product Officer w Apifonica

Oprócz Gemini rozszerzyliśmy także integrację z ElevenLabs o wsparcie dla Eleven v3. Klienci mają teraz dostęp do sześciu typów modeli w ramach tego samego interfejsu, w tym modeli o niskiej latencji, wielojęzycznych i bardzo ekspresyjnych. Pomaga to klientom zachować równowagę między latencją a ekspresyjnością, w zależności od przypadku użycia.

Praktycznym dodatkiem jest nowa funkcja pobierania próbek audio. Klienci mogą generować i pobierać próbki głosowe bezpośrednio z platformy, używając rzeczywistego tekstu scenariusza. Dostrajanie złożonego scenariusza nie wymaga już testowego połączenia na żywo. Klienci mogą usłyszeć rezultat, dopasować dialog i ponownie wygenerować próbkę w tej samej sesji.

Ulepszenia edytora scenariuszy z wyszukiwaniem i lepszą widocznością

Duże scenariusze głosowe mogą szybko zyskiwać na złożoności, co utrudnia nawigację. Nowa funkcja wyszukiwania w edytorze scenariuszy rozwiązuje ten problem, wprowadzając globalne wyszukiwanie w czasie rzeczywistym w obrębie całego scenariusza.

Wyszukiwanie w scenariuszu: Pasek wyszukiwania w stylu Spotlight pozwala teraz natychmiast zlokalizować dowolny blok lub tekst w scenariuszu, niezależnie od jego złożoności.

Wyodrębnione dane na pierwszy rzut oka: Wartości z ekstrakcji encji - języki, numery zgłoszeń CRM, wszystkie dane wychwytywane przez blok - są teraz wyświetlane bezpośrednio na kanwie. Nie trzeba już otwierać każdego bloku osobno, żeby zobaczyć, co zawiera.

Natychmiastowe próbki audio: Gdy klient chce usłyszeć konkretną frazę, może użyć nowego przycisku pobierania, aby wygenerować próbkę audio i w razie potrzeby ją udostępnić.

W przypadku dużych scenariuszy zawierających setki bloków logicznych staje się to kluczowym ulepszeniem użyteczności.

Co to oznacza w praktyce

Razem te aktualizacje usprawniają dwa kluczowe elementy pracy z głosowym AI:

Lepsza jakość głosu z bardziej ekspresyjną i naturalną mową

Przyspieszony rozwój scenariuszy i debugowanie na dużą skalę

Cel jest jasny: skrócić drogę od napisania scenariusza do usłyszenia, jak brzmi.

Poproś o prezentację i posłuchaj nowych, naturalnie brzmiących głosów Gemini

Może zainteresuje Cię także:

Produkty i rozwiązania

2/7/2026

Większa kontrola, wyższe bezpieczeństwo - aktualizacje platformy z ostatniego miesiąca

Voice AI to dziś coś więcej niż automatyzacja. Firmy potrzebują większej kontroli nad tym, jak prowadzone są rozmowy, gdzie przetwarzane są dane i jak mierzą interakcje z klientami. Czerwcowe aktualiz...

Dowiedz się więcej

Produkty i rozwiązania

22/4/2026

Pełna kontrola nad wyborem modelu AI: obsługa wielu modeli LLM w tym Claude, Gemini, Mistral i własnych, niestandardowych wdrożeń

Nasza platforma obsługuje teraz natywną integrację z modelami OpenAI, Claude od Anthropic, Google oraz Mistral, a opcje zgodne z RODO są dostępne w przypadku wszystkich czterech dostawców. Modele moż...

Dowiedz się więcej

Produkty i rozwiązania

16/4/2026

Aktualizacja kampanii SMS – natychmiastowa walidacja i bardziej zaawansowane analizy

W tym miesiącu wprowadziliśmy ulepszenia w narzędziu do wysyłania SMS-ów, które teraz umożliwia natychmiastową weryfikację kampanii po ich przesłaniu, zapewnia bardziej szczegółowe analizy i raporty, ...

Dowiedz się więcej